AI资讯新闻榜单内容搜索-NeurIPS

NeurIPS 2025 | 告别全量扫描！浙大提出COIDO：破解多模态数据选择「高耗」难题

在深入技术细节之前，我们先用一张漫画来直观理解 COIDO (Coupled Importance-Diversity Optimization) 解决的核心问题与方案：正如钟离在漫画中所言，面对海量视觉指令数据的选择任务，传统方法需要遍历全部数据才能进行筛选造成大量「磨损」（高昂计算成本）。同时在面对数据重要性和多样性问题时，传统方法往往顾此失彼。

来自主题: AI技术研报

6420 点击 2025-12-14 10:46

何恺明NeurIPS 2025演讲盘点：视觉目标检测三十年

不久前，NeurIPS 2025 顺利举办，作为人工智能学术界的顶级会议之一，其中不乏学术界大佬的工作和演讲。

来自主题: AI技术研报

9677 点击 2025-12-12 09:36

清华紧逼谷歌，AI顶会NeurIPS论文数第二！中国占半壁江山

NeurIPS 2025见证了历史性的分流：清华大学以微弱差距逼近谷歌，中国AI完成了从数量堆叠向底层架构创新的「质变」突围。在圣地亚哥与墨西哥城的双会场之间，签证壁垒切割了物理空间。这是一场关于算力、人才与技术定义权的「双城记」。

来自主题: AI资讯

6110 点击 2025-12-10 10:52

谷歌新架构突破Transformer超长上下文瓶颈！Hinton灵魂拷问：后悔Open吗？

两项关于大模型新架构的研究一口气在NeurIPS 2025上发布，通过“测试时训练”机制，能在推理阶段将上下文窗口扩展至200万token。两项新成果分别是：Titans：兼具RNN速度和Transformer性能的全新架构；MIRAS：Titans背后的核心理论框架。

来自主题: AI技术研报

6900 点击 2025-12-06 11:10

NeurIPS 2025 | DePass：通过单次前向传播分解实现统一的特征归因

随着大型语言模型在各类任务中展现出卓越的生成与推理能力，如何将模型输出精确地追溯到其内部计算过程，已成为 AI 可解释性研究的重要方向。然而，现有方法往往计算代价高昂、难以揭示中间层的信息流动；同时，不同层面的归因（如 token、模型组件或表示子空间）通常依赖各自独立的特定方法，缺乏统一且高效的分析框架。

来自主题: AI技术研报

5506 点击 2025-12-01 13:49

NeurIPS 2025 | 英伟达发布Nemotron-Flash：以GPU延迟为核心重塑小模型架构

导读过去两年，小语言模型（SLM）在业界备受关注：参数更少、结构更轻，理应在真实部署中 “更快”。但只要真正把它们跑在 GPU 上，结论往往令人意外 —— 小模型其实没有想象中那么快。

来自主题: AI技术研报

7579 点击 2025-12-01 10:09

NeurIPS 2025 | Language Ranker：从推荐系统的视角反思并优化大模型解码过程

在大语言模型（LLM）的研究浪潮中，绝大多数工作都聚焦于优化模型的输出分布 —— 扩大模型规模、强化分布学习、优化奖励信号…… 然而，如何将这些输出分布真正转化为高质量的生成结果 —— 即解码（decoding）阶段，却没有得到足够的重视。

来自主题: AI技术研报

6117 点击 2025-12-01 10:06

NeurIPS 2025 | DynaAct：DeepSeek R1之外，探索大模型推理的另一条道路

大模型推理的爆发，实际源于 scaling 范式的转变：从 train-time scaling 到 test-time scaling（TTS），即将更多的算力消耗部署在 inference 阶段。典型的实现是以 DeepSeek r1 为代表的 long CoT 方法：通过增加思维链的长度来获得答案精度的提升。那么 long CoT 是 TTS 的唯一实现吗？

来自主题: AI技术研报

7808 点击 2025-11-30 09:30

世界模型，是否正在逼近自己的「ChatGPT时刻」？

李飞飞等顶尖学者投身的创业方向——世界模型是 AI 的下一站吗？「AI 是人类自诞生以来，唯一担得起『日新月异』这个词的技术领域，」在机器之心近日举办的 NeurIPS 2025 论文分享会圆桌讨论上，茶思屋科技网站总编张群英的开场感叹引发了在场专家们的共鸣。

来自主题: AI资讯

7324 点击 2025-11-29 13:48

NeurIPS 2025 Oral | 1个Token零成本，REG让Diffusion训练收敛快20倍！

REG 是一种简单而有效的方法，仅通过引入一个 class token 便能大幅加速生成模型的训练收敛。其将基础视觉模型（如 DINOv2）的 class token 与 latent 在空间维度拼接后共同加噪训练，从而显著提升 Diffusion 的收敛速度与性能上限。在 ImageNet 256×256 上，

来自主题: AI技术研报

6566 点击 2025-11-29 13:46